其他
65周年 | 张新长:多尺度空间数据联动更新技术研究现状及展望
多尺度空间数据联动更新技术研究现状及展望张新长1
2. 北部湾环境演变与资源利用教育部重点实验室, 广西 南宁 530001;
3. 中山大学地理科学与规划学院, 广东 广州 510006;
4. 中山大学大气科学学院, 广东 珠海 519082;
5. 华北水利水电大学测绘与地理信息学院, 河南 郑州 450046基金项目:国家自然科学基金(42071441;41901404)摘要:多尺度空间数据库是国民经济建设各级行政决策规划的重要依据, 在智慧城市、国防建设中发挥着关键作用。数据的现势性影响着空间数据库的运行效率, 而多尺度空间数据联动更新为保证数据的现势性提供重要技术支撑。伴随着人工智能、地理空间大数据和地图综合智能化发展, 空间数据联动更新取得了不少成果, 同时也面临诸多挑战。本文首先, 围绕多尺度空间数据的更新策略、匹配方法、更新信息检测及更新信息传递等方面阐述了联动更新的研究进展; 然后, 梳理和分析了联动更新过程各阶段人工智能技术运用现状; 最后, 结合自动地图综合和地理空间大数据背景, 探讨了多尺度空间数据联动更新的发展趋势。关键词:多尺度空间数据 联动更新 地图综合 更新信息检测 空间数据匹配
引 言多尺度空间数据联动更新的目的是在有效解决更新信息尺度间传递的同时,大量减少更新过程数据的重复采集和更新时间,通过结合人工智能、地图综合等方法联动实现更新信息从大比例尺数据库向小比例尺数据库传递的过程。根据联合国报告,2009—2050年,预计全球的城市化水平将从50%上升至69%[1]。当前,我国仍处于快速城市化发展阶段,城市变化日新月异,建成区快速扩张,建筑物、道路等新建、拆除或改建随处可见。正确理解和认识城市空间分布场景则需要及时更新地理信息系统(geographic information system,GIS)中的多个尺度的空间数据库。所谓的多尺度空间数据库(multi-representation database,MRDB)就是同一地区不同比例尺的空间数据库[2]。数据的现势性直接关系到地理信息系统的可持续应用和发展。特别是“数字城市地理空间框架”和“地理国情监测”工程的建设需要现势性好、适用性强的多尺度地理空间数据作为支撑。多尺度空间数据作为GIS的“血液”,其现势性更是保持GIS活力的源泉[3]。然而,传统的多尺度空间数据的生产周期较长,生产速度往往滞后于城市发展速度,更新速度更是落后于生产速度[4]。因此,作为支撑国民经济建设的多尺度空间数据的持续、快速更新就显得十分重要。目前,多尺度空间数据最理想的更新策略是根据多尺度空间数据中同名实体(同一实体在不同尺度上的表达)间的关联关系,只针对发生变化的数据进行更新,首先更新大比例尺数据,然后自动将更新信息传递给各小比例表达,最后智能完成小比例尺更新表达,即多尺度空间数据的联动更新[5]。多尺度空间数据联动更新是一项复杂的系统工程,其过程包括空间实体匹配、更新信息检测、更新信息传递、冲突检测与处理等。国内外学者已经对多尺度空间数据联动更新进行了大量深入的研究,但目前还未能有一种普适的方法来解决联动更新中的所有问题。本文将从联动更新策略、关键技术及其智能化发展进行阐述,并结合地图自动综合进一步探讨联动更新的发展趋势。
1 多尺度空间数据更新
1.1 多尺度空间数据更新框架空间数据更新是国际学术组织感兴趣的重要课题,国际地图协会(ICA)和国际摄影测量与遥感学会(ISPRS)早在1999年成立了“增量空间数据更新与数据库版本研究”联合工作组,并组织了专题委员会。此外,ICA中的“Generalization and Multiple Representation”委员会中不少报告是关于多尺度空间数据联动更新研究的讨论(http://generalization.icaci.org)。在国内,特别是在数字城市地理空间框架、地理国情普查等重大工程建设需求的推动下,有关空间数据动态更新的研究成也为了GIS的一个热点,并且受到了越来越多的关注[6-8]。总体上,多尺度空间数据联动更新是在建立多尺度空间实体匹配关系的基础上,首先利用现状数据进行更新信息检测提取更新信息;然后根据匹配信息,结合地图综合方法进行更新信息尺度间的传递;最后对更新结果进行空间冲突检测和处理,以保证同名实体在多个尺度表达上的一致性,其过程如图 1所示。图 1 多尺度空间数据更新框架Fig. 1 The framework of multi-scale spatial data updating 图选项
1.2 多尺度空间数据更新策略为适应不同的应用与数据管理需求,地理空间数据常按不同比例尺进行存储与维护。显然,根据不同尺度数据的成图要求,分别进行外业测量与制图处理将会产生大量的重复投入,并造成数据更新效率低下的问题,难以满足GIS的应用需求[6]。因此,研究人员尝试以大比例尺地图数据作为数据,进行小比例尺空间数据的增量更新,以提高数据更新管理的效率[9]。此外,多尺度空间数据的动态更新需要考虑不同比例尺同名实体之间的关联关系,并以此为基础结合地图综合进行更新信息传递,这已成为多尺度数据模型与地图综合研究的新方向与新挑战[10]。根据现有文献分析,多尺度空间数据的更新策略主要有3种,即地图缩编更新、增量制图综合更新和联动更新,如图 2所示。图 2 多尺度空间数据更新的3种策略Fig. 2 Three multi-scale spatial data updating strategies 图选项
1.2.1 地图缩编更新地图缩编更新,即利用制图综合方法将现势性强的大比例尺地图进行综合后,对小比例尺旧数据进行全局替换[8]。在更新模式方面,文献[11]归纳了缩编更新的4种模式,并认为在目前新旧数据叠加缩编的更新模式最为实用。世界上各国的国家基础地理数据库是典型的多尺度数据库,地图缩编的方法在维护该类数据的尺度一致性方面发挥了重要的作用[12-13]。此外,这种方法还在土地利用现状更新、导航电子地图更新等方面都有较广泛的应用[14-16],并逐步朝着自动化与智能化的方向发展[17]。地图缩编更新方法工作目标明确、逻辑清晰。然而,在地图综合未能全自动化的情况下,由于缩编工作面向更新范围内的所有要素,没有对发生变化的要素与不变要素进行区分,且需要对更新范围边界裁剪要素进行制图拼接,导致地图缩编更新的工作量比较大,且造成历史数据冗余,降低历史回溯效率。1.2.2 增量制图综合更新增量制图综合方法是为了把更新信息融入目标比例尺数据库中,而对更新信息的增量对象进行制图综合完成尺度变换。由于这种方式只是针对更新信息,而无须对所有要素进行制图综合处理[18],能够提高更新的效率,并有助于保证不同比例尺数据之间的一致性。文献[18]结合制图综合进行增量更新主要有两种方案,一是对更新后的大比例尺地图重新执行制图综合操作,称为重综合(re-generalization)处理;二是把更新的要素直接引进小比例尺地图,然后根据制图规则进行调整,称为创建(construction)处理方法。如何确定邻近要素是增量制图综合的前提,文献[19]研究不同种类更新对象的作用范围,设计了以影响域渐进扩展为基础的增量制图综合算法,确保制图综合后不会引入新的空间冲突。文献[20]把道路的单位影响范围作为选取标准对新增数据进行取舍,这种以独立影响区域为基础的道路线自动制图综合方法,有助于减少地图综合的工作量。文献[10]把制图综合的操作划分成独立的功能单元,提出记录制图综合操作的日志模型,为地图增量更新与更新信息传递提供支持。受环境约束,网络环境下的制图综合或者移动设备地图显示都会应用增量制图综合技术[21]。增量制图综合方法以发生变化的要素为中心,搜索邻近要素并进行局部的制图综合,相对缩编更新能有效地提高数据数据管理与更新的效率。虽然增量制图综合更新取得了不少成果,但今后的研究重点仍集中在多尺度匹配、增量对象到目标比例尺的综合及空间关系和空间冲突的解决等方面。1.2.3 联动更新上述两种更新策略并不需要建立多尺度空间数据中同名实体间的关联关系,可以直接进行单一或多个尺度空间数据更新。联动更新(亦称级联更新)的整体思路则是通过影像对比、实测、新旧矢量数据匹配等方法在大比例尺空间数据中找到发生变化的对象,并根据同名实体关联关系寻找与大比例尺对象关联的小比例尺对象,综合考虑更新信息类型与制图综合规则,对关联的小比例尺对象进行修改,以更新小比例尺空间数据库[22]。多尺度空间数据联动更新的基础是不同尺度同名实体之间的关联关系,并根据这些关联关系实现更新信息从大比例数据库向小比例尺数据库传递[23]。该方法通过把大比例尺更新要素映射到对应的小比例地图上,然后通过制图综合进行联动更新,在有效实现增量更新的同时,保持了更新对象的映射关系。然而,由于更新信息传递过程中涉及多类信息(如大比例尺更新信息、同名实体关联关系、制图综合规则等)的整合与相互作用,且受到不同更新场景的影响,更新类型与处理方式较为复杂,具有较高的挑战性[22]。
2 联动更新的关键技术
多尺度空间数据联动更新的关键技术包括多尺度空间实体匹配、更新信息检测、更新信息传递和空间冲突检测与处理等。空间实体匹配,即通过实体特征测度建立同名实体在不同尺度间的关联关系,匹配方法也可用于更新信息的发现;更新信息检测是通过影像对比、实测、新旧矢量数据匹配等方法,在大比例尺数据中发现并提取更新信息;更新信息传递即在分析更新信息及其邻近对象空间分布结构的基础上,利用制图综合方法(如删除、合并、化简、位移等)将更新信息综合到小比例尺数据库中;更新信息在尺度间传递完成后需要对新的综合对象进行空间冲突检测与处理,即检测其是否存在拓扑结构、属性、几何等冲突,并将错误进行修改处理。联动更新中的更新信息通常包括删除、新增、修改等信息。2.1 空间实体匹配多尺度空间数据需要保存同一实体在不同尺度表达间的关联关系,建立与动态维护同名实体关联关系是保证更新信息能够联动传递的关键[24]。然而,基础地理空间数据库的建库过程都是分别建库的,没有建立同一实体不同尺度表达间的关联关系。因此,多尺度空间数据联动更新的首要任务是建立多尺度空间数据中同名实体的关联关系,即空间实体匹配。从1988年第1个地理空间实体匹配方法被提出[25],经过了30多年的发展,地理空间实体匹配在理论方法与技术应用上取得了长足的进步。下文从匹配策略和匹配特征两个方面阐述地理空间实体匹配研究的进展情况。2.1.1 匹配策略空间实体匹配策略可以概括为直接匹配和间接匹配两类,前者直接利用空间实体特征对比进行匹配,后者则将空间实体进行转换、分解、抽象等,再进行匹配。如在1∶1的匹配关系研究中,文献[25]利用距离、连通度及蜘蛛网编码来寻找可能匹配的点;也有研究利用待匹配对象的顶点或节点之间的距离及待匹配线段之间的距离来进行线要素的匹配。缓冲区增长法是将实体逐步增长缓冲区来获取候选匹配对象,通过区域统计来确定匹配阈值,通过优势函数来确定匹配对象[26]。缓冲区重叠面积法亦被广泛应用于地理空间实体的匹配,通过计算候选匹配对象之间的缓冲区面积重叠度,选取重叠度最大的对象作为匹配对象应用于线状实体及面状实体的匹配[27-29]。融合地物多特征相似性的匹配策略在多尺度空间实体匹配上也被广泛应用[30]。有学者在此基础上进行了改进,针对网络节点及弧段的相似性,提出了人机交互式的综合匹配阈值确定方法[31]。上述研究都属于直接要素匹配策略。间接匹配策略中,有研究人员提出采用实体分层的形式进行匹配,如将道路匹配定义为分解、基本、抽象3个层次,分别采用线段、路段、路径结合缓冲区、拓扑关系、属性特征进行层级匹配[32]。该方法在多尺度道路数据的匹配中取得了较高的精度,能够识别一对多、多对多的匹配关系。基于层次化空间关系的道路节点匹配方法,在对节点拓扑类型进行细分的基础上,依靠距离、连通度、弧段方向,层次递进地进行匹配关系识别,能有效用于多尺度道路网的匹配[33]。上述匹配精度受到阈值的影响较大。有学者提出了基于模糊集拓扑分类的面状实体匹配方法,该方法能够在一定程度上避免阈值的选取[34]。随后有学者对该方法进一步优化,将成分关联区域的相似度度量因子引入空间目标匹配,虽然避免了匹配阈值的精确选取,但计算量较大,且对各匹配指标权重较为敏感[35].概率松弛也是一种常用匹配方法,从早期的摄影测量同名地物匹配到GIS数据匹配[36-38]。空间实体匹配过程由于需要进行大量的空间检索,面临计算量大、耗时长的问题,学者们对此提出了一些改进方法。如文献[39]基于城市形态学原理,在通过道路网、水系形成的闭合区间将城市空间进行划分的基础上,发展了一种新的空间数据层次索引方法来提升检索速度。文献[40]依据拓扑关系对道路实体进行分类,将其划分为匹配层与非匹配层,通过迭代的方式对非匹配层进行重新分类后,只对少量没有确定匹配关系的道路进行全局遍历匹配,有效提高了匹配的效率。此外,利用标记信息辅助空间对象的匹配是实体匹配研究中的另一种思路。文献[41]提出利用已标记的地物作为参考地标,依靠环境相似度来识别面状实体的匹配关系。文献[42]提出了一种多层次蔓延匹配算法,该方法通过语义信息确定初始匹配道路单元并将其标记,利用已标记的对象构建多层次的蔓延单元来实现道路增量信息的提取。为减少人工干预,提高空间实体匹配的自动化水平,近年来出现了各种基于机器学习的匹配方法,各种分类算法如支持向量机、神经元网络、逻辑回归、决策树等先后引入研究工作[43-46]。该类方法的基本思想是依靠机器学习从分类样本中获取决策知识,从而对候选匹配对象进行判别。基于机器学习的方法避免了指标权值及匹配阈值的人工设定,有效提升了匹配工作的智能化水平。但是这类方法也面临着样本选取与标记工作量较大等问题。2.1.2 特征测度无论采用何种匹配策略,都离不开空间实体特征的测度。空间实体特征的测度是空间实体匹配过程中的重要部分,研究人员从几何、空间关系、语义等方面对空间实体的特征进行测度研究。在空间距离度量方面,经典的欧几里得距离、Hausdorff距离、Fréchet距离被广泛应用于空间实体匹配研究。例如,为降低实体形状对距离测度的敏感度,文献[47]对这些经典距离描述方法进行了改进,提出中值Hausdorff距离用于度量实体主要部分的位置关系,避免了实体次要部分或异常值对距离度量的影响,从而提升道路距离测度的稳定性。空间实体几何形状的定量化描述是GIS面临的难题之一,文献[48]从实体的范围、边界、结构入手开展了多种形状度量方法研究。其中,傅里叶变换在面状实体的相似性测度中发挥了重要的作用。例如,针对建筑物,基于傅里叶变换的形状描述方法利用周期函数来近似表达多边形的边界,通过系数向量的距离来比较待匹配要素与给定模板间的相似度[49-50]。文献[51]基于弯曲度半径复函数的傅里叶形状描述子来度量面状实体的形状相似度。而针对带空洞的复杂面状实体,文献[52]构建了基于位置图与傅里叶描述子的形状相似性度量模型。几何矩、转向角函数也被用于描述面状居民地的形状相似度[53-54]。对于线要素的形状相似性度量,常采用夹角链码[55]、角度差值积分[56]等方法。文献[57]提出将线实体的首尾连接做镜面对偶生成面实体,以生成的面实体的傅里叶形状描述子为其形状向量[57]。在空间关系相似性测度方面,文献[58]提出了基于对象圆锥模型、投影模型、方向矩阵模型、Voronoi方向模型、统计模型、方向距离模型等定量与定性的描述模型。面向对象群的方向关系度量方法可以适应复杂方向关系评价[59];描述重叠与包含区域的方向关系模型,可以对线-线、面-面、线-面等不同维度实体之间的方向关系测度[60];多特征综合测度方面,基于多特征约束的语义相似性度量模型在构建实体间语义特征对应关系的基础上引入属性特征熵的概念,计算不同特征的权重值,进而综合多特征相似性来度量空间实体的整体语义相似程度[61-62]。语义信息是空间实体信息的一部分,也是度量空间实体相似度的重要特征。空间实体属性信息的综合相似度计算模型是常用的方法[63]。其中,语义相似度分类方法通过构建特征模型来描述离散化的特征,并采用集合论来计算相似度[64]。地名地址是空间实体的重要属性信息,文献[65—67]提出了数字地名相似性的度量方法。近年来,领域本体也被用于GIS领域的语义相似度研究[68]。为满足志愿者地理信息集成的需要,地理空间语义相似度由面向实例化的研究向面向概念的、抽象化的研究发展。随着多尺度空间关系理论的发展,相似关系已经成为空间基本关系之一[69],但其研究还属于初级阶段。空间相似关系的定义为在某一个特定的空间比例尺及专题内容下被认为相似的两个区域[70]。文献[58]面向多尺度地图表达,基于集合论提出了空间相似关系的定义。空间相似关系理论的发展将有助于空间实体匹配中相似性测度方法的改进。2.2 更新信息检测更新信息检测是空间数据库更新信息传递的前提。更新信息检测的任务是通过比较不同时间段的数据,获取更新对象并确定对应的更新类型。由于地理空间数据采集与共享的方式不同,更新信息检测的数据来源也不同,可以从外业测量获取的矢量数据、遥感影像数据、自发地理信息(volunteered geographic information,VGI)等数据源中获取更新信息。更新信息检测方法方面,可综合应用几何指标评价、拓扑关系检测及概率统计、动态规划等多种数学计算方法发现更新信息。(1) 从矢量数据中检测与提取更新信息。通常是通过比较不同时期采集的矢量数据,综合考虑其几何特征、属性特征与拓扑特征,识别出具体的变化对象与变化类型[71]。新旧矢量空间数据的匹配是发现和提取变化信息的最主要方法[72]。该匹配过程可以采用上述多尺度空间数据匹配方法实现更新信息的发现。如新旧对象间的关系是0∶1,代表是新增对象;新旧对象间的关系是1∶0,则代表被删除的对象。依据空间对象之间的拓扑关系也可以进行更新信息检测。例如,对于地籍数据,如果检测界址点发生了变化,界址线及地块的面积也会相应发生变化。在利用实体对象间的中心距离、形状相似性、方向相似性等多项检测指标时,为了避免精确阈值的人为确定,结合基于概率理论的多指标匹配模型进行更新信息检测是一种不错的研究思路[73]。然而,计算效率却成了瓶颈问题,克服双向匹配中的重复计算是提升效率的关键。在地籍数据库的更新中,文献[14]应用基态-修正模型、时空快照模型等分类模型以确定更新对象类型。该类方法以更新事件为驱动因子,综合考虑拓扑关系与语义特征进行更新信息的判断。在影像数据与矢量数据相结合的更新信息提取中,人工神经网络模型、专家系统、Snake模型等方法得到了应用[74]。这些方法由于面向栅格数据,具有检测效率高、实时性强的特点。但是,该方法提取的变化信息难以直接应用于数据库的更新中,与更新操作的结合仍需进一步探究。(2) 从遥感影像变化检测中发现更新信息。遥感影像由于其采集周期短、更新速度快,学者也常利用遥感影像进行变化检测发现更新信息,并以提取结果更新空间数据库[75]。变化检测的数据源上,SAR影像、LiDAR影像由于几何信息较精确,同时具有高程信息,在变化检测与要素更新中也发挥了重要的作用[76]。此外,多种数据融合也可应用在变化检测任务上,可利用旧时相矢量图与新时相影像进行变化检测[77]。检测方法上,根据是否需要地面参考数据,经典的变化检测算法可以分为非监督变化检测和监督变化检测[78]。非监督变化检测在变化检测过程中不需要提供样本信息,旨在确定二类变化信息,即变化与未变化[79],也有少数学者在探测是否变化同时,识别变化的类型[80];监督变化检测通常需要利用全部或部分时相的地面参考数据进行分类从而获取变化信息,又可以分为直接分类和分类后比较两种方法。直接分类法通过多时相遥感影像的叠加进行分类得到变化信息[81],该类方法较适合二类变化检测,对于多类别变化检测而言,难以选择充足的样本。分类后比较法[82]则分别对多时相遥感影像分类,因而可以通过“from-to”变化信息得到精细地物变化类型[83],从而很好地解释土地覆盖的变化,但多次分类误差的累计容易降低变化检测的精度。从变化检测的基元来看,可以分为基于像素、面向对象和场景3类。基于像素的变化检测中,高分辨率影像中各像素的空间依赖性较强,单个像素不能包含足够的信息,传统利用局部特征训练的分类器难以适合于高分辨率影像。因此,充分挖掘高分辨率影像中的空间、光谱、形状、纹理及上下文等特征并加入到变化检测中得到了广泛的关注[84-85]。然而,像素基元容易受到椒盐效应的影响,且当两期影像存在校准误差时,基于像素的变化检测容易产生虚检[86]。为此,面向对象被引入高分辨率变化检测中[87]。然而,对象的最优分割尺度的确定和对象特征的表达一直是影响变化检测的瓶颈。另外,遥感场景(指影像内部的空间和结构分布模式,如住宅、商业区等)变化检测随着场景识别的发展也开始崭露头角[88]。近年来,深度学习得到了快速的发展,由于其无须先验特征提取,可以凭借其非线性网络模仿大脑进行低级到高级的抽象与不变特征提取,从而实现对地物的认知,使得遥感变化检测焕发了新的生机。如文献[89]提出了一种多空间分辨率变化检测框架,该方法采用了基于深层网络的无监督特征学习和基于映射的特征变化分析。文献[90]提出了基于深度神经网络的遥感图像变化检测方法,即首先利用深度网络进行差异图的构建,进而对差异图分析得到二类变化结果。遥感影像变化检测方法在发现更新信息方面发挥了重要作用,其提取结果适合用于精度要求不高的专题空间数据库的更新,但由于其提取结果的不规则、不完整性,不能直接用于精度要求较高的空间数据库更新。(3) 从自发地理信息中检测与提取更新信息。文献[91]提出了关于自发地理信息更新的基本理念,即以在线协作的方式,使用者可以实现对空间信息的新建、修改与管理,使得地理信息的获取方式从“按规范测量”开始转变为“按需求测量”。OpenStreetMap、Google Map Maker、维基地图等都是VGI成功的范例,为地理信息数据的创新性应用提供了重要的支持。随后,不少学者利用VGI获取更新信息进行空间数据更新研究,如文献[92]提出了基于数据融合技术的多源VGI集成框架,目的是更有效更新土地利用数据库。文献[93]针对自发地理信息的更新信息检测与提取、数据有效性和多尺度更新等问题,系统探索了基于VGI数据的空间数据变化发现与更新方法。利用VGI进行地理空间数据库的更新与维护,需要充分考虑到VGI数据的质量问题。文献[94]提出了通过不同来源比对,以及社会评价及地理分析的方法对VGI进行评价。此外,学者还提出了基于语言学的决策分析方法[95]、基于控制数据的方法[96]等用于分析VGI的质量。2.3 更新信息传递—地图综合地图综合是在分析数据空间分布模式的基础上,采用一定的综合操作(如合并、化简、删除、位移等)在保持主要空间特征的情况下解决基态(大比例尺)表达随尺度变换产生的矛盾(如压盖、拥挤等)而生成所需尺度(小比例尺)表达的过程。该过程可以概括为空间分布模式识别和综合操作执行。更新信息传递过程中,需要先对更新信息及其周边对象进行空间结构分析,在此基础上利用综合操作将更新信息向目标尺度进行尺度变换。(1) 空间分布模式识别。空间分布模式识别是地图综合的前提,主要是针对点状或面状对象(如居民地),即采用一定的识别方法、根据对象的空间关系(如距离、方向、大小)识别出其所形成的、在视觉上可识别和语义上命名的排列或形式(如线性排列、网格排列)[98]。更新信息中的删除信息会导致原有空间分布模式发生改变,而新增信息中如多个居民地、仓房等则会产生新的空间分布模式。在空间分布模式识别过程中,首先需要计算邻近对象的空间关系。最常用的空间关系主要包括拓扑关系和度量关系。其中,拓扑关系中的邻近和邻接关系研究与应用非常广泛[99-100],这缘于探测邻近关系或邻接关系是一项必需的基础工作。该工作主要是通过拓扑分析及建立约束三角网来实现[101];距离关系是空间分布结构识别中最常用的度量关系,包括最近距离[102]、平均距离[103]和可视距离[104]等。另外,空间对象的形状、面积相似关系也常作为判断它们能否形成模式的重要指标[100]。识别方法上,目前常用的做法是将识别对象及其空间关系转换为图的数据结构,即识别对象为图的顶点,邻近关系为图的边,空间关系大小为图边的权重,然后通过切割图的边进行模式识别与划分[105]。构造的图可以认为是一种潜在模式,判断其是否需要切割即判断该潜在模式是否符合特定尺度要求,本质上是一个分类问题。对于这类问题学者们提出了很多方法,例如采用经验标准去评估模式,这种方法一般针对某些特定模式,比如直线排列模式[106]。机器学习方法由于其能够根据样本生成多个决策规则,可以识别不同类型的空间分布模式,同时可以避免进行大量的人工干预。文献[107]采用支持向量机算法提取建筑物的空间分布模式;随机森林分类器已被证明适合于处理多个场景问题。文献[105]采用基于随机森林的图割方法提取了包括直线分布、规则分布、L型模式和高密度分布等的居民地空间分布模式。(2) 综合操作执行。在对更新信息空间分布模式识别的基础上,需要根据待更新尺度的制图表达及地图信息量要求,对其进行删除、合并、化简、位移等制图综合操作[108]。删除操作根据应用尺度可视化要求、重要程度等决定更新对象的去留,并对影响对象进行重新综合,执行过程较为简单。化简与直角化属于合并后的操作,针对单个对象,目前国内外研究得较多且技术已很成熟[109-110]。合并操作即将构成模式的所有对象融合为一个对象,是地图生成过程中不可或缺的综合操作,受到制图研究者的广泛关注[111-112]。在城市环境中,居民地因其分布复杂性导致其合并具有较高的挑战性[113]。目前使用约束三角网作为链接对象合并群组对象的策略应用最为广泛[114]。约束三角网的构造主要采用狄洛尼三角剖分方法,这种方法生成的三角网能够提供邻近对象间显式的空间关系,并且能够用于引导合并过程[111, 115]。在应用三角网进行合并群组对象时,最为关键的是如何决定三角形的去留。这个过程涉及的参数有位置、角度、三角形的高、三边的平均长度等[116]。目前,对于地图自动综合的相关研究,有较多学者作了进展综述[97, 117-118],本文不再作赘述。2.4 空间冲突检测与处理在地理空间数据的更新过程中,由于尺度的变化,更新信息向目标尺度传递综合通常会导致空间冲突的发生。这种冲突具体表现为空间对象的拓扑结构冲突、属性冲突、几何冲突等[119-121]。例如,对居民地图层进行更新,更新后发现新增居民地与其他居民地相交,或者居民地与道路出现相交现象;在管线数据更新的时候,管线没有与管点实现闭合。空间冲突的检测与处理需要综合考虑到地物的空间分布特征、多图层的拓扑关系及地物的重要性,是一个充满挑战性的课题,即使如此,不少学者提出了解决冲突方法。文献[122]提出了基于拓扑链的线-线空间关系模型建模方法,综合考虑拓扑关系、顺序关系及线段的几何特征,实现线-线空间冲突的自动检测。文献[123]从提高数据更新质量和数据更新的自动化程度等角度出发,探讨了空间数据增量更新中空间冲突的自动检测和处理。文献[124]为保证目标群分布模式形态,构建了在多因素影响下的移位场,实现了居民地面目标组合的移位处理,且不会产生新的空间冲突。为了优化空间冲突处理,研究人员使用了改进模拟退火算法[125]、遗传算法[126]等优化算法,自动消除制图综合产生的图形冲突。为了提高冲突检测效率,文献[127]提出了将检测区域限定在利用索引格子集表达的更新居民地对象的邻近区域内的检测方法。上述研究侧重于研究空间冲突的检测与计算机自动处理的方法,较少从多尺度联动更新的角度研究空间冲突在不同尺度之间传递的机制。
3 联动更新的智能化发展
空间数据联动更新属于地图综合领域一个重要研究热点,伴随着智能化技术和自动地图综合的发展,联动更新的智能化水平也在不断进步,特别是各类机器学习方法、优化算法被广泛运用到空间数据联动更新的各个阶段。空间数据联动更新,由于其属于增量更新,首先需要确定发生变化的信息。在对新、旧数据进行对比,根据变化指标,确定更新信息分类的过程中,需要综合考虑不同时间段、不同尺度下要素的几何特征、语义特征与拓扑特征。在不同的更新场景中(如建筑密度差异、地图载负量差异、路网密度差异等),判断参数的阈值需要进行不断地修改,才能更好地达到自动判断更新信息的效果。因此,在变化信息识别与提取阶段,不少学者结合人工神经网络进行研究。文献[71]利用神经网络决策树实现了居民地变化信息的快速发现。文献[128]使用了空间句法、人工神经网络等机器学习方法进行了道路更新信息的提取。随着深度学习技术的不断成熟,逐渐有学者利用深度学习模型对影像进行探测变化发现更新信息。对于多尺度要素匹配方面,文献[24]同样利用了人工神经网络技术对居民地匹配中的指标权重、匹配判定的总相似性阈值和各指标相似性阈值进行了准确量化。在更新信息传递阶段,空间模式识别引入了多种机器学习方法,包括支持向量机[107]、随机森林[105]、人工神经网络[28]等。在更新信息综合插入小比例尺数据中,重建小比例尺对象实际是对约束Delaunay三角网进行合并,属于组合优化问题。在此过程当中,需要根据制图综合的规则对三角网进行选择与修改,三角形合并的顺序将影响到所构建对象的最终效果。因此,有学者提出采用局部搜索算法获取合并三角形优化组合[22]。在空间冲突检测与处理阶段,引入了各种智能优化算法,包括改进模拟退火算法[125]、遗传算法[126]等。根据上述分析,无论是传统机器学习方法还是深度学习模型,以及各类优化算法仅在联动更新某个阶段运用,目前还未发现有学者将其运用到联动更新整个过程,而实现联动更新的完全自动化。这也说明了多尺度空间数据联动更新是一个复杂过程,其智能化发展还有很长的路要走。多尺度空间数据联动更新难以实现完全自动化,主要缘于生产多尺度空间数据的过程没有完全自动化,导致生产的数据不统一,加大了联动更新的复杂性,如需要对没有建立同名实体关联关系的数据进行空间实体匹配。
4 联动更新的几点思考
多尺度空间数据联动更新过程复杂,随着地理空间大数据海量涌现和人工智能不断发展,多尺度空间数据联动更新研究也出现了诸多热点议题。由于联动更新仍属于地图综合范畴,下面结合地图综合智能化发展探讨多尺度空间数据联动更新的发展趋势。4.1 联动更新主体的变化当前联动更新主要针对多尺度空间数据(如1∶1万、1∶2万、1∶5万等),仅是有限尺度数据,而用户常需要在连续尺度上对不同空间数据(如矢量、影像数据)进行浏览、切换与分析[21]。另外,随着时空大数据海量出现,为了满足不同的用户需求,时空数据表达常存在任意尺度[117]。虽然存储关键尺度数据库也可以输出连续表达,但是随着应用变化及数据库的更新,关键尺度数据库也可能发生改变。因此,理想的状态仍然需要存储连续尺度数据或连续尺度数据生成知识。对连续尺度空间数据进行联动更新,一方面可以提高更新数据的精确度,这是由于尺度跨度小,更新尺度参数可以得到更好的量化,避免尺度参数选择困难的问题;另一方面,由于进行了连续尺度空间数据生成,可以满足不同使用者的需求,对其进行统一联动更新,避免了各部门使用数据更新时间的不统一,提高了空间数据的使用效率。目前有关连续尺度空间数据联动更新的研究鲜有报道,这是因为连续尺度空间数据的生成本身就是一个难题。4.2 联动更新的桥梁在多尺度空间地理数据库中,构建与动态维护同名实体关联关系是保证联动更新信息能够传递的关键[131]。目前,大多地图综合方法仅针对单一尺度空间数据进行尺度变换,并没有建立原始尺度(大比例尺)数据与综合结果(小比例尺)同名实体间的关联关系,需要在后期进行空间实体匹配建立更新信息的桥梁,导致空间数据联动更新仍停留在试验阶段。为了提高联动更新的智能化水平,首先需要建立多尺度空间数据同名实体稳健的关联关系。有研究认为基于自动地图综合的尺度转换模式是解决空间数据多尺度表达问题的最基本方法,也是最终解决途径[97]。鉴于此,解决多尺度空间数据同名实体关联关系问题可能也需要从其生产方式中突破,也就是在进行多尺度空间数据生产过程中建立起同名实体间的关联关系。理论上,通过地图综合方法获得的关联关系比上述匹配方法建立的关系更加精确和稳健。然而,在地图综合未能完全智能化的情况下,通过其构建同名实体关联关系也将存在不少难题,如地图综合中的空间模式识别精度将直接影响关联关系的精度。4.3 大数据时代的联动更新随着大数据时代的到来,越来越智能化的工作和生活对空间数据要求进一步提高,一是空间数据日异月更,用户更需要现势性高的空间数据;二是需要空间数据具备更丰富的语义信息。然而,现有的多尺度空间数据联动更新研究主要面向矢量数据,基于矢量数据的几何特征进行更新信息的发现、传递[22]。然而,日常使用的空间数据大多需要提供语义信息,缺乏语义信息的空间数据将极大降低其实用性。随着地理空间大数据的海量涌现,不断有学者尝试使用多源空间数据对建筑物的功能(如办公、居住、商业和娱乐等)进行识别,以满足土地利用与规划管理的需求[132-134]。地图综合研究中,已有学者通过挖掘多源空间数据在建筑物上的语义信息,进行建筑物群组模式识别[135-136]。多尺度空间数据联动更新可借鉴上述研究,先挖掘多源空间数据在空间数据(如建筑物)上体现的语义信息,为更新信息传递过程中的综合提供约束条件,在提高信息传递准确性的同时,为空间数据提供更加丰富的语义信息,提高空间数据的实用性。5 结束语
随着城市化进程的不断加快及人工智能技术的发展,多尺度空间数据联动更新在策略、算法设计等方面都有了深入的探索。多尺度空间数据联动更新的最终目的,是实现完全的自动更新。然而,由于多尺度空间数据联动更新过程复杂,人工智能仍处于感知智能发展阶段,导致联动更新的智能化水平还处于更新策略演变及其过程各阶段的实验探索研究中[137]。例如,在更新策略上由工作量比较大的图幅更新发展到了只对变化要素更新的联动增量更新,虽然节约数据的存储空间,但是前提条件是需要建立稳健的同名实体关联关系,提高了联动更新的复杂性;虽然目前对于空间实体匹配研究较多,但仍无法实现百分百的匹配正确率,从而影响更新信息的传递效果。目前,深度学习对于变化检测而言取得较为不错的成果,但仍需要大规模人工标注的高质量样本数据,而且缺乏高级认知能力,如推理、泛化能力等。随着大数据时代的到来,多尺度空间数据联动更新的整个过程完全自动化、无须人工干预仍然面临着巨大挑战。基于自动地图综合的尺度转换模式是解决空间数据多尺度表达问题的最基本方法,也是最终解决途径。鉴于此,解决多尺度空间数据联动更新问题或许可以从其生产方式中突破,包括连续尺度空间数据的生成、稳健关联关系的建立等。此外,联动更新中的更新信息从大比例尺向小比例尺传递的影响机制、作用机理、质量评价方法以及在不同更新场景下误差的分布特征等都有待于进一步研究与完善。
1 多尺度空间数据更新
1.1 多尺度空间数据更新框架空间数据更新是国际学术组织感兴趣的重要课题,国际地图协会(ICA)和国际摄影测量与遥感学会(ISPRS)早在1999年成立了“增量空间数据更新与数据库版本研究”联合工作组,并组织了专题委员会。此外,ICA中的“Generalization and Multiple Representation”委员会中不少报告是关于多尺度空间数据联动更新研究的讨论(http://generalization.icaci.org)。在国内,特别是在数字城市地理空间框架、地理国情普查等重大工程建设需求的推动下,有关空间数据动态更新的研究成也为了GIS的一个热点,并且受到了越来越多的关注[6-8]。总体上,多尺度空间数据联动更新是在建立多尺度空间实体匹配关系的基础上,首先利用现状数据进行更新信息检测提取更新信息;然后根据匹配信息,结合地图综合方法进行更新信息尺度间的传递;最后对更新结果进行空间冲突检测和处理,以保证同名实体在多个尺度表达上的一致性,其过程如图 1所示。1 多尺度空间数据更新
2 联动更新的关键技术
多尺度空间数据联动更新的关键技术包括多尺度空间实体匹配、更新信息检测、更新信息传递和空间冲突检测与处理等。空间实体匹配,即通过实体特征测度建立同名实体在不同尺度间的关联关系,匹配方法也可用于更新信息的发现;更新信息检测是通过影像对比、实测、新旧矢量数据匹配等方法,在大比例尺数据中发现并提取更新信息;更新信息传递即在分析更新信息及其邻近对象空间分布结构的基础上,利用制图综合方法(如删除、合并、化简、位移等)将更新信息综合到小比例尺数据库中;更新信息在尺度间传递完成后需要对新的综合对象进行空间冲突检测与处理,即检测其是否存在拓扑结构、属性、几何等冲突,并将错误进行修改处理。联动更新中的更新信息通常包括删除、新增、修改等信息。2.1 空间实体匹配多尺度空间数据需要保存同一实体在不同尺度表达间的关联关系,建立与动态维护同名实体关联关系是保证更新信息能够联动传递的关键[24]。然而,基础地理空间数据库的建库过程都是分别建库的,没有建立同一实体不同尺度表达间的关联关系。因此,多尺度空间数据联动更新的首要任务是建立多尺度空间数据中同名实体的关联关系,即空间实体匹配。从1988年第1个地理空间实体匹配方法被提出[25],经过了30多年的发展,地理空间实体匹配在理论方法与技术应用上取得了长足的进步。下文从匹配策略和匹配特征两个方面阐述地理空间实体匹配研究的进展情况。2.1.1 匹配策略空间实体匹配策略可以概括为直接匹配和间接匹配两类,前者直接利用空间实体特征对比进行匹配,后者则将空间实体进行转换、分解、抽象等,再进行匹配。如在1∶1的匹配关系研究中,文献[25]利用距离、连通度及蜘蛛网编码来寻找可能匹配的点;也有研究利用待匹配对象的顶点或节点之间的距离及待匹配线段之间的距离来进行线要素的匹配。缓冲区增长法是将实体逐步增长缓冲区来获取候选匹配对象,通过区域统计来确定匹配阈值,通过优势函数来确定匹配对象[26]。缓冲区重叠面积法亦被广泛应用于地理空间实体的匹配,通过计算候选匹配对象之间的缓冲区面积重叠度,选取重叠度最大的对象作为匹配对象应用于线状实体及面状实体的匹配[27-29]。融合地物多特征相似性的匹配策略在多尺度空间实体匹配上也被广泛应用[30]。有学者在此基础上进行了改进,针对网络节点及弧段的相似性,提出了人机交互式的综合匹配阈值确定方法[31]。上述研究都属于直接要素匹配策略。间接匹配策略中,有研究人员提出采用实体分层的形式进行匹配,如将道路匹配定义为分解、基本、抽象3个层次,分别采用线段、路段、路径结合缓冲区、拓扑关系、属性特征进行层级匹配[32]。该方法在多尺度道路数据的匹配中取得了较高的精度,能够识别一对多、多对多的匹配关系。基于层次化空间关系的道路节点匹配方法,在对节点拓扑类型进行细分的基础上,依靠距离、连通度、弧段方向,层次递进地进行匹配关系识别,能有效用于多尺度道路网的匹配[33]。上述匹配精度受到阈值的影响较大。有学者提出了基于模糊集拓扑分类的面状实体匹配方法,该方法能够在一定程度上避免阈值的选取[34]。随后有学者对该方法进一步优化,将成分关联区域的相似度度量因子引入空间目标匹配,虽然避免了匹配阈值的精确选取,但计算量较大,且对各匹配指标权重较为敏感[35].概率松弛也是一种常用匹配方法,从早期的摄影测量同名地物匹配到GIS数据匹配[36-38]。空间实体匹配过程由于需要进行大量的空间检索,面临计算量大、耗时长的问题,学者们对此提出了一些改进方法。如文献[39]基于城市形态学原理,在通过道路网、水系形成的闭合区间将城市空间进行划分的基础上,发展了一种新的空间数据层次索引方法来提升检索速度。文献[40]依据拓扑关系对道路实体进行分类,将其划分为匹配层与非匹配层,通过迭代的方式对非匹配层进行重新分类后,只对少量没有确定匹配关系的道路进行全局遍历匹配,有效提高了匹配的效率。此外,利用标记信息辅助空间对象的匹配是实体匹配研究中的另一种思路。文献[41]提出利用已标记的地物作为参考地标,依靠环境相似度来识别面状实体的匹配关系。文献[42]提出了一种多层次蔓延匹配算法,该方法通过语义信息确定初始匹配道路单元并将其标记,利用已标记的对象构建多层次的蔓延单元来实现道路增量信息的提取。为减少人工干预,提高空间实体匹配的自动化水平,近年来出现了各种基于机器学习的匹配方法,各种分类算法如支持向量机、神经元网络、逻辑回归、决策树等先后引入研究工作[43-46]。该类方法的基本思想是依靠机器学习从分类样本中获取决策知识,从而对候选匹配对象进行判别。基于机器学习的方法避免了指标权值及匹配阈值的人工设定,有效提升了匹配工作的智能化水平。但是这类方法也面临着样本选取与标记工作量较大等问题。2.1.2 特征测度无论采用何种匹配策略,都离不开空间实体特征的测度。空间实体特征的测度是空间实体匹配过程中的重要部分,研究人员从几何、空间关系、语义等方面对空间实体的特征进行测度研究。在空间距离度量方面,经典的欧几里得距离、Hausdorff距离、Fréchet距离被广泛应用于空间实体匹配研究。例如,为降低实体形状对距离测度的敏感度,文献[47]对这些经典距离描述方法进行了改进,提出中值Hausdorff距离用于度量实体主要部分的位置关系,避免了实体次要部分或异常值对距离度量的影响,从而提升道路距离测度的稳定性。空间实体几何形状的定量化描述是GIS面临的难题之一,文献[48]从实体的范围、边界、结构入手开展了多种形状度量方法研究。其中,傅里叶变换在面状实体的相似性测度中发挥了重要的作用。例如,针对建筑物,基于傅里叶变换的形状描述方法利用周期函数来近似表达多边形的边界,通过系数向量的距离来比较待匹配要素与给定模板间的相似度[49-50]。文献[51]基于弯曲度半径复函数的傅里叶形状描述子来度量面状实体的形状相似度。而针对带空洞的复杂面状实体,文献[52]构建了基于位置图与傅里叶描述子的形状相似性度量模型。几何矩、转向角函数也被用于描述面状居民地的形状相似度[53-54]。对于线要素的形状相似性度量,常采用夹角链码[55]、角度差值积分[56]等方法。文献[57]提出将线实体的首尾连接做镜面对偶生成面实体,以生成的面实体的傅里叶形状描述子为其形状向量[57]。在空间关系相似性测度方面,文献[58]提出了基于对象圆锥模型、投影模型、方向矩阵模型、Voronoi方向模型、统计模型、方向距离模型等定量与定性的描述模型。面向对象群的方向关系度量方法可以适应复杂方向关系评价[59];描述重叠与包含区域的方向关系模型,可以对线-线、面-面、线-面等不同维度实体之间的方向关系测度[60];多特征综合测度方面,基于多特征约束的语义相似性度量模型在构建实体间语义特征对应关系的基础上引入属性特征熵的概念,计算不同特征的权重值,进而综合多特征相似性来度量空间实体的整体语义相似程度[61-62]。语义信息是空间实体信息的一部分,也是度量空间实体相似度的重要特征。空间实体属性信息的综合相似度计算模型是常用的方法[63]。其中,语义相似度分类方法通过构建特征模型来描述离散化的特征,并采用集合论来计算相似度[64]。地名地址是空间实体的重要属性信息,文献[65—67]提出了数字地名相似性的度量方法。近年来,领域本体也被用于GIS领域的语义相似度研究[68]。为满足志愿者地理信息集成的需要,地理空间语义相似度由面向实例化的研究向面向概念的、抽象化的研究发展。随着多尺度空间关系理论的发展,相似关系已经成为空间基本关系之一[69],但其研究还属于初级阶段。空间相似关系的定义为在某一个特定的空间比例尺及专题内容下被认为相似的两个区域[70]。文献[58]面向多尺度地图表达,基于集合论提出了空间相似关系的定义。空间相似关系理论的发展将有助于空间实体匹配中相似性测度方法的改进。2.2 更新信息检测更新信息检测是空间数据库更新信息传递的前提。更新信息检测的任务是通过比较不同时间段的数据,获取更新对象并确定对应的更新类型。由于地理空间数据采集与共享的方式不同,更新信息检测的数据来源也不同,可以从外业测量获取的矢量数据、遥感影像数据、自发地理信息(volunteered geographic information,VGI)等数据源中获取更新信息。更新信息检测方法方面,可综合应用几何指标评价、拓扑关系检测及概率统计、动态规划等多种数学计算方法发现更新信息。(1) 从矢量数据中检测与提取更新信息。通常是通过比较不同时期采集的矢量数据,综合考虑其几何特征、属性特征与拓扑特征,识别出具体的变化对象与变化类型[71]。新旧矢量空间数据的匹配是发现和提取变化信息的最主要方法[72]。该匹配过程可以采用上述多尺度空间数据匹配方法实现更新信息的发现。如新旧对象间的关系是0∶1,代表是新增对象;新旧对象间的关系是1∶0,则代表被删除的对象。依据空间对象之间的拓扑关系也可以进行更新信息检测。例如,对于地籍数据,如果检测界址点发生了变化,界址线及地块的面积也会相应发生变化。在利用实体对象间的中心距离、形状相似性、方向相似性等多项检测指标时,为了避免精确阈值的人为确定,结合基于概率理论的多指标匹配模型进行更新信息检测是一种不错的研究思路[73]。然而,计算效率却成了瓶颈问题,克服双向匹配中的重复计算是提升效率的关键。在地籍数据库的更新中,文献[14]应用基态-修正模型、时空快照模型等分类模型以确定更新对象类型。该类方法以更新事件为驱动因子,综合考虑拓扑关系与语义特征进行更新信息的判断。在影像数据与矢量数据相结合的更新信息提取中,人工神经网络模型、专家系统、Snake模型等方法得到了应用[74]。这些方法由于面向栅格数据,具有检测效率高、实时性强的特点。但是,该方法提取的变化信息难以直接应用于数据库的更新中,与更新操作的结合仍需进一步探究。(2) 从遥感影像变化检测中发现更新信息。遥感影像由于其采集周期短、更新速度快,学者也常利用遥感影像进行变化检测发现更新信息,并以提取结果更新空间数据库[75]。变化检测的数据源上,SAR影像、LiDAR影像由于几何信息较精确,同时具有高程信息,在变化检测与要素更新中也发挥了重要的作用[76]。此外,多种数据融合也可应用在变化检测任务上,可利用旧时相矢量图与新时相影像进行变化检测[77]。检测方法上,根据是否需要地面参考数据,经典的变化检测算法可以分为非监督变化检测和监督变化检测[78]。非监督变化检测在变化检测过程中不需要提供样本信息,旨在确定二类变化信息,即变化与未变化[79],也有少数学者在探测是否变化同时,识别变化的类型[80];监督变化检测通常需要利用全部或部分时相的地面参考数据进行分类从而获取变化信息,又可以分为直接分类和分类后比较两种方法。直接分类法通过多时相遥感影像的叠加进行分类得到变化信息[81],该类方法较适合二类变化检测,对于多类别变化检测而言,难以选择充足的样本。分类后比较法[82]则分别对多时相遥感影像分类,因而可以通过“from-to”变化信息得到精细地物变化类型[83],从而很好地解释土地覆盖的变化,但多次分类误差的累计容易降低变化检测的精度。从变化检测的基元来看,可以分为基于像素、面向对象和场景3类。基于像素的变化检测中,高分辨率影像中各像素的空间依赖性较强,单个像素不能包含足够的信息,传统利用局部特征训练的分类器难以适合于高分辨率影像。因此,充分挖掘高分辨率影像中的空间、光谱、形状、纹理及上下文等特征并加入到变化检测中得到了广泛的关注[84-85]。然而,像素基元容易受到椒盐效应的影响,且当两期影像存在校准误差时,基于像素的变化检测容易产生虚检[86]。为此,面向对象被引入高分辨率变化检测中[87]。然而,对象的最优分割尺度的确定和对象特征的表达一直是影响变化检测的瓶颈。另外,遥感场景(指影像内部的空间和结构分布模式,如住宅、商业区等)变化检测随着场景识别的发展也开始崭露头角[88]。近年来,深度学习得到了快速的发展,由于其无须先验特征提取,可以凭借其非线性网络模仿大脑进行低级到高级的抽象与不变特征提取,从而实现对地物的认知,使得遥感变化检测焕发了新的生机。如文献[89]提出了一种多空间分辨率变化检测框架,该方法采用了基于深层网络的无监督特征学习和基于映射的特征变化分析。文献[90]提出了基于深度神经网络的遥感图像变化检测方法,即首先利用深度网络进行差异图的构建,进而对差异图分析得到二类变化结果。遥感影像变化检测方法在发现更新信息方面发挥了重要作用,其提取结果适合用于精度要求不高的专题空间数据库的更新,但由于其提取结果的不规则、不完整性,不能直接用于精度要求较高的空间数据库更新。(3) 从自发地理信息中检测与提取更新信息。文献[91]提出了关于自发地理信息更新的基本理念,即以在线协作的方式,使用者可以实现对空间信息的新建、修改与管理,使得地理信息的获取方式从“按规范测量”开始转变为“按需求测量”。OpenStreetMap、Google Map Maker、维基地图等都是VGI成功的范例,为地理信息数据的创新性应用提供了重要的支持。随后,不少学者利用VGI获取更新信息进行空间数据更新研究,如文献[92]提出了基于数据融合技术的多源VGI集成框架,目的是更有效更新土地利用数据库。文献[93]针对自发地理信息的更新信息检测与提取、数据有效性和多尺度更新等问题,系统探索了基于VGI数据的空间数据变化发现与更新方法。利用VGI进行地理空间数据库的更新与维护,需要充分考虑到VGI数据的质量问题。文献[94]提出了通过不同来源比对,以及社会评价及地理分析的方法对VGI进行评价。此外,学者还提出了基于语言学的决策分析方法[95]、基于控制数据的方法[96]等用于分析VGI的质量。2.3 更新信息传递—地图综合地图综合是在分析数据空间分布模式的基础上,采用一定的综合操作(如合并、化简、删除、位移等)在保持主要空间特征的情况下解决基态(大比例尺)表达随尺度变换产生的矛盾(如压盖、拥挤等)而生成所需尺度(小比例尺)表达的过程。该过程可以概括为空间分布模式识别和综合操作执行。更新信息传递过程中,需要先对更新信息及其周边对象进行空间结构分析,在此基础上利用综合操作将更新信息向目标尺度进行尺度变换。(1) 空间分布模式识别。空间分布模式识别是地图综合的前提,主要是针对点状或面状对象(如居民地),即采用一定的识别方法、根据对象的空间关系(如距离、方向、大小)识别出其所形成的、在视觉上可识别和语义上命名的排列或形式(如线性排列、网格排列)[98]。更新信息中的删除信息会导致原有空间分布模式发生改变,而新增信息中如多个居民地、仓房等则会产生新的空间分布模式。在空间分布模式识别过程中,首先需要计算邻近对象的空间关系。最常用的空间关系主要包括拓扑关系和度量关系。其中,拓扑关系中的邻近和邻接关系研究与应用非常广泛[99-100],这缘于探测邻近关系或邻接关系是一项必需的基础工作。该工作主要是通过拓扑分析及建立约束三角网来实现[101];距离关系是空间分布结构识别中最常用的度量关系,包括最近距离[102]、平均距离[103]和可视距离[104]等。另外,空间对象的形状、面积相似关系也常作为判断它们能否形成模式的重要指标[100]。识别方法上,目前常用的做法是将识别对象及其空间关系转换为图的数据结构,即识别对象为图的顶点,邻近关系为图的边,空间关系大小为图边的权重,然后通过切割图的边进行模式识别与划分[105]。构造的图可以认为是一种潜在模式,判断其是否需要切割即判断该潜在模式是否符合特定尺度要求,本质上是一个分类问题。对于这类问题学者们提出了很多方法,例如采用经验标准去评估模式,这种方法一般针对某些特定模式,比如直线排列模式[106]。机器学习方法由于其能够根据样本生成多个决策规则,可以识别不同类型的空间分布模式,同时可以避免进行大量的人工干预。文献[107]采用支持向量机算法提取建筑物的空间分布模式;随机森林分类器已被证明适合于处理多个场景问题。文献[105]采用基于随机森林的图割方法提取了包括直线分布、规则分布、L型模式和高密度分布等的居民地空间分布模式。(2) 综合操作执行。在对更新信息空间分布模式识别的基础上,需要根据待更新尺度的制图表达及地图信息量要求,对其进行删除、合并、化简、位移等制图综合操作[108]。删除操作根据应用尺度可视化要求、重要程度等决定更新对象的去留,并对影响对象进行重新综合,执行过程较为简单。化简与直角化属于合并后的操作,针对单个对象,目前国内外研究得较多且技术已很成熟[109-110]。合并操作即将构成模式的所有对象融合为一个对象,是地图生成过程中不可或缺的综合操作,受到制图研究者的广泛关注[111-112]。在城市环境中,居民地因其分布复杂性导致其合并具有较高的挑战性[113]。目前使用约束三角网作为链接对象合并群组对象的策略应用最为广泛[114]。约束三角网的构造主要采用狄洛尼三角剖分方法,这种方法生成的三角网能够提供邻近对象间显式的空间关系,并且能够用于引导合并过程[111, 115]。在应用三角网进行合并群组对象时,最为关键的是如何决定三角形的去留。这个过程涉及的参数有位置、角度、三角形的高、三边的平均长度等[116]。目前,对于地图自动综合的相关研究,有较多学者作了进展综述[97, 117-118],本文不再作赘述。2.4 空间冲突检测与处理在地理空间数据的更新过程中,由于尺度的变化,更新信息向目标尺度传递综合通常会导致空间冲突的发生。这种冲突具体表现为空间对象的拓扑结构冲突、属性冲突、几何冲突等[119-121]。例如,对居民地图层进行更新,更新后发现新增居民地与其他居民地相交,或者居民地与道路出现相交现象;在管线数据更新的时候,管线没有与管点实现闭合。空间冲突的检测与处理需要综合考虑到地物的空间分布特征、多图层的拓扑关系及地物的重要性,是一个充满挑战性的课题,即使如此,不少学者提出了解决冲突方法。文献[122]提出了基于拓扑链的线-线空间关系模型建模方法,综合考虑拓扑关系、顺序关系及线段的几何特征,实现线-线空间冲突的自动检测。文献[123]从提高数据更新质量和数据更新的自动化程度等角度出发,探讨了空间数据增量更新中空间冲突的自动检测和处理。文献[124]为保证目标群分布模式形态,构建了在多因素影响下的移位场,实现了居民地面目标组合的移位处理,且不会产生新的空间冲突。为了优化空间冲突处理,研究人员使用了改进模拟退火算法[125]、遗传算法[126]等优化算法,自动消除制图综合产生的图形冲突。为了提高冲突检测效率,文献[127]提出了将检测区域限定在利用索引格子集表达的更新居民地对象的邻近区域内的检测方法。上述研究侧重于研究空间冲突的检测与计算机自动处理的方法,较少从多尺度联动更新的角度研究空间冲突在不同尺度之间传递的机制。2 联动更新的关键技术
3 联动更新的智能化发展
空间数据联动更新属于地图综合领域一个重要研究热点,伴随着智能化技术和自动地图综合的发展,联动更新的智能化水平也在不断进步,特别是各类机器学习方法、优化算法被广泛运用到空间数据联动更新的各个阶段。空间数据联动更新,由于其属于增量更新,首先需要确定发生变化的信息。在对新、旧数据进行对比,根据变化指标,确定更新信息分类的过程中,需要综合考虑不同时间段、不同尺度下要素的几何特征、语义特征与拓扑特征。在不同的更新场景中(如建筑密度差异、地图载负量差异、路网密度差异等),判断参数的阈值需要进行不断地修改,才能更好地达到自动判断更新信息的效果。因此,在变化信息识别与提取阶段,不少学者结合人工神经网络进行研究。文献[71]利用神经网络决策树实现了居民地变化信息的快速发现。文献[128]使用了空间句法、人工神经网络等机器学习方法进行了道路更新信息的提取。随着深度学习技术的不断成熟,逐渐有学者利用深度学习模型对影像进行探测变化发现更新信息。对于多尺度要素匹配方面,文献[24]同样利用了人工神经网络技术对居民地匹配中的指标权重、匹配判定的总相似性阈值和各指标相似性阈值进行了准确量化。在更新信息传递阶段,空间模式识别引入了多种机器学习方法,包括支持向量机[107]、随机森林[105]、人工神经网络[28]等。在更新信息综合插入小比例尺数据中,重建小比例尺对象实际是对约束Delaunay三角网进行合并,属于组合优化问题。在此过程当中,需要根据制图综合的规则对三角网进行选择与修改,三角形合并的顺序将影响到所构建对象的最终效果。因此,有学者提出采用局部搜索算法获取合并三角形优化组合[22]。在空间冲突检测与处理阶段,引入了各种智能优化算法,包括改进模拟退火算法[125]、遗传算法[126]等。根据上述分析,无论是传统机器学习方法还是深度学习模型,以及各类优化算法仅在联动更新某个阶段运用,目前还未发现有学者将其运用到联动更新整个过程,而实现联动更新的完全自动化。这也说明了多尺度空间数据联动更新是一个复杂过程,其智能化发展还有很长的路要走。多尺度空间数据联动更新难以实现完全自动化,主要缘于生产多尺度空间数据的过程没有完全自动化,导致生产的数据不统一,加大了联动更新的复杂性,如需要对没有建立同名实体关联关系的数据进行空间实体匹配。3 联动更新的智能化发展
4 联动更新的几点思考
多尺度空间数据联动更新过程复杂,随着地理空间大数据海量涌现和人工智能不断发展,多尺度空间数据联动更新研究也出现了诸多热点议题。由于联动更新仍属于地图综合范畴,下面结合地图综合智能化发展探讨多尺度空间数据联动更新的发展趋势。4.1 联动更新主体的变化当前联动更新主要针对多尺度空间数据(如1∶1万、1∶2万、1∶5万等),仅是有限尺度数据,而用户常需要在连续尺度上对不同空间数据(如矢量、影像数据)进行浏览、切换与分析[21]。另外,随着时空大数据海量出现,为了满足不同的用户需求,时空数据表达常存在任意尺度[117]。虽然存储关键尺度数据库也可以输出连续表达,但是随着应用变化及数据库的更新,关键尺度数据库也可能发生改变。因此,理想的状态仍然需要存储连续尺度数据或连续尺度数据生成知识。对连续尺度空间数据进行联动更新,一方面可以提高更新数据的精确度,这是由于尺度跨度小,更新尺度参数可以得到更好的量化,避免尺度参数选择困难的问题;另一方面,由于进行了连续尺度空间数据生成,可以满足不同使用者的需求,对其进行统一联动更新,避免了各部门使用数据更新时间的不统一,提高了空间数据的使用效率。目前有关连续尺度空间数据联动更新的研究鲜有报道,这是因为连续尺度空间数据的生成本身就是一个难题。4.2 联动更新的桥梁在多尺度空间地理数据库中,构建与动态维护同名实体关联关系是保证联动更新信息能够传递的关键[131]。目前,大多地图综合方法仅针对单一尺度空间数据进行尺度变换,并没有建立原始尺度(大比例尺)数据与综合结果(小比例尺)同名实体间的关联关系,需要在后期进行空间实体匹配建立更新信息的桥梁,导致空间数据联动更新仍停留在试验阶段。为了提高联动更新的智能化水平,首先需要建立多尺度空间数据同名实体稳健的关联关系。有研究认为基于自动地图综合的尺度转换模式是解决空间数据多尺度表达问题的最基本方法,也是最终解决途径[97]。鉴于此,解决多尺度空间数据同名实体关联关系问题可能也需要从其生产方式中突破,也就是在进行多尺度空间数据生产过程中建立起同名实体间的关联关系。理论上,通过地图综合方法获得的关联关系比上述匹配方法建立的关系更加精确和稳健。然而,在地图综合未能完全智能化的情况下,通过其构建同名实体关联关系也将存在不少难题,如地图综合中的空间模式识别精度将直接影响关联关系的精度。4.3 大数据时代的联动更新随着大数据时代的到来,越来越智能化的工作和生活对空间数据要求进一步提高,一是空间数据日异月更,用户更需要现势性高的空间数据;二是需要空间数据具备更丰富的语义信息。然而,现有的多尺度空间数据联动更新研究主要面向矢量数据,基于矢量数据的几何特征进行更新信息的发现、传递[22]。然而,日常使用的空间数据大多需要提供语义信息,缺乏语义信息的空间数据将极大降低其实用性。随着地理空间大数据的海量涌现,不断有学者尝试使用多源空间数据对建筑物的功能(如办公、居住、商业和娱乐等)进行识别,以满足土地利用与规划管理的需求[132-134]。地图综合研究中,已有学者通过挖掘多源空间数据在建筑物上的语义信息,进行建筑物群组模式识别[135-136]。多尺度空间数据联动更新可借鉴上述研究,先挖掘多源空间数据在空间数据(如建筑物)上体现的语义信息,为更新信息传递过程中的综合提供约束条件,在提高信息传递准确性的同时,为空间数据提供更加丰富的语义信息,提高空间数据的实用性。4 联动更新的几点思考
5 结束语
随着城市化进程的不断加快及人工智能技术的发展,多尺度空间数据联动更新在策略、算法设计等方面都有了深入的探索。多尺度空间数据联动更新的最终目的,是实现完全的自动更新。然而,由于多尺度空间数据联动更新过程复杂,人工智能仍处于感知智能发展阶段,导致联动更新的智能化水平还处于更新策略演变及其过程各阶段的实验探索研究中[137]。例如,在更新策略上由工作量比较大的图幅更新发展到了只对变化要素更新的联动增量更新,虽然节约数据的存储空间,但是前提条件是需要建立稳健的同名实体关联关系,提高了联动更新的复杂性;虽然目前对于空间实体匹配研究较多,但仍无法实现百分百的匹配正确率,从而影响更新信息的传递效果。目前,深度学习对于变化检测而言取得较为不错的成果,但仍需要大规模人工标注的高质量样本数据,而且缺乏高级认知能力,如推理、泛化能力等。随着大数据时代的到来,多尺度空间数据联动更新的整个过程完全自动化、无须人工干预仍然面临着巨大挑战。基于自动地图综合的尺度转换模式是解决空间数据多尺度表达问题的最基本方法,也是最终解决途径。鉴于此,解决多尺度空间数据联动更新问题或许可以从其生产方式中突破,包括连续尺度空间数据的生成、稳健关联关系的建立等。此外,联动更新中的更新信息从大比例尺向小比例尺传递的影响机制、作用机理、质量评价方法以及在不同更新场景下误差的分布特征等都有待于进一步研究与完善。作者简介第一作者简介:张新长(1957-), 男, 教授, 博士生导师, 主要研究方向为城市地理信息系统。E-mail: zhangxc@gzhu.edu.cn通信作者:何显锦, E-mail:xjhe9@nnnu.edu.cn
终审:金 君
往期推荐
资讯
○ 滑坡专刊 | 黄海峰:孕灾机理与综合遥感结合的三峡库首顺层岩质滑坡隐患识别